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[AE] BS 腰痛 全 球 患 病 率 逐 步 上 升 ， 而 腰痛 是 致 残 、 病 休 、 失 业 的 主要 原因 ， 对 个 人 及 社会 均 是 沉重 
的 负担 。 评 佑 慢性 腰痛 患者 的 残疾 程度 对 于 评价 临床 干预 疗效 和 临床 流行 病 学 至 关 重 要 。 罗 兰 - 莫 里 残疾 调查 问卷 
( RMDQ) 是 目前 评估 腰痛 患者 残疾 的 主要 工具 ， 但 其 测量 性 能 在 中 国人 群 中 的 适用 性 尚 不 明确 。 目 的 ”评估 RMDQ 
在 中 国 腰痛 人 群 中 的 适用 性 ， 为 临床 实践 、 临 床 研究 的 应 用 提供 证 据 。 方 法 ”计算 机 检索 中 国 知 网 、 万 方 数据 知识 服 
务 平台 、SinoMed、PubMed、Embase 及 Web of Science 等 ， 检 索 时 间 为 建 库 至 2023-10-01， 针 对 腰痛 量 表 的 性 能 研究 
建立 文献 库 ， 再 从 中 筛选 RMDQ 测量 性 能 的 研究 。 按 照 以 共识 为 基础 的 健康 测量 工具 的 选择 标准 (COSMIN ) 系统 评 
价 指南 对 RMDQ 量 表 的 测量 学 性 能 进行 评价 ， 并 采用 GRADE 证 据 评 价 等 级 对 证 据 分 级 。 结 果 共 纳 入 6 篇 RMDQ X 
Hk, RMDQ 内 容 效 度 方法 学 质量 为 不 足 ， 测 量 性 能 为 充分 ; 内 部 一 致 性 方法 学 质量 存在 非常 好 与 不 确定 ， 测 量 性 能 为 
充分 ; 重 测 性 度 方法 学 质量 为 不 确定 ， 测 量 性 能 为 充分 ; 测量 误差 方法 学 质量 为 不 确定 ， 测 量 性 能 为 充分 ; 效 标 效 度 
方法 学 质量 为 不 确定 ， 测 量 性 能 为 不 充分 ; 假设 检验 方法 学 质量 存在 非常 好 与 不 确定 ， 测 量 性 能 存在 充分 与 不 确定 ; 
反应 度 方法 学 质量 存在 非常 好 、 足 够 与 不 足 ， 测 量 性 能 存在 充分 与 不 足 。 根 据 GRADE 证 据 质量 评级 结果 表明 内 容 效 
度 有 低 质量 证 据 证 明 不 确定 ， 重 测 信 度 及 内 部 一 致 性 有 中 等 质量 证 据 证 明 充 分 ; 测量 误差 及 反应 度 有 低 质量 证 据 证 明 
充分 ; 以 Oswestry 功能 障碍 指数 CODI) 和 视觉 模拟 量 表 (VAS) 为 校 标 时 ， 校 标 效 度 有 非常 低 质 量 证 据 证 明 不 充分 ; 
假设 检验 有 中 等 质量 证 据 证 明 不 确定 。 结 论 。RMDOQ 量 表 方 法 学 质量 不 高 ， 测 量 性 能 尚 可 ,证据 质量 偏 低 ， 在 中 国 腰 
痛 临 床 实 践 或 试验 中 需 谨 慎 使 用 ， 重 测 信和 度 与 内 部 一 致 性 昌 有 中 等 质量 证 据 证 明 充 分 ， 但 研究 内 容 和 方法 不 规范 。 将 
来 研究 应 注意 规范 ， 能 更 准确 判断 在 中 国人 群 中 的 适用 性 。 

【关键 词 】 上 腰痛; 罗兰 - 英里 残疾 调查 问卷 ; COSMIN; 信和 度 ; 效 度 ; 反应 度 

【 中 图 分 类 号 】 R68L55 【文献 标识 码 】 A DOI: 10.12114/j.issn.1007—9572.2023.0519 


RMDQ Measurement Performance Evidence in Chinese Patients with Low Back Pain: a 
Systematic Review Based on COSMIN Method 

GAO Yixuan" ^, WANG Xiyou , CHEN Qianji , YANG Xiaoming’, GUO Junming*, ZI Yilu , WENG Zhiwen*, MA Jingyi’, 
ZHANG Naiwen*, LIU Eryang’, SHAO Hui, SUN Yanan^, YU Changhe" 

1.The first Clinical Department, Beijing University of Chinese Medicine, Beijing 100700, China 

2.Tuina and Pain Management Department, Beijing University of Chinese Medicine Affiliated Dongzhimen Hospital, Beijing 
100700, China 


基金 项 目 : 国家 自然 科学 基金 青年 科学 基金 项 目 (81803956) ; 北京 市 首发 青年 优 才 项 


H (2020-4-4195) ; 首都 临床 特色 应 上 


(Z181100001718165 ) 


研究 


引用 本 文 : 高 艺 轩 ， 王 锡 友 ， 陈 千 吉 ， 等 . 基于 COSMIN 方法 对 中 国 腰痛 患者 罗兰 — 莫 里 残疾 调查 问卷 测量 性 能 证 据 的 系统 评价 [J] . 


中 国 全 科 医 学 ，2023. | Epub ahead of print ] . DOI: 10.12114/j.issn.1007—9572.2023.0519. [ www.chinagp.net | 


GAO Y X, WANG X Y, CHEN QJ, et al. RMDQ measurement performance evidence in Chinese patients with Low back pain: a systematic review 


based on COSMIN method [ J | . Chinese General Practice, 2023. [ Epub ahead of print Jie 
© Chinese General Practice Publishing House Co., Ltd. This is an open access article under the CC BY-NC-ND 4.0 license. 


:2- http:www.chinagp.net | E-mail:zeqkyxG&chinagp.net.cn 


Chinese General Practice (GP 


排版 稿 


3.Shenzhen Luohu District Hospital of Traditional Chinese Medicine, Shenzhen 518001, China 
4.Traditional Chinese Medicine Department, Xuanwu Hospital Capital Medical University, Beijing 100053, China 


"Corresponding author: YU Changhe, Attending physician; E-mail: 


[ Abstract ] 
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Background The global prevalence of low back pain is gradually increasing, and it is the main cause of 


disability, sick leave, and unemployment, posing a heavy burden on individuals and society. Assessing the degree of disability 


in patients with chronic low back pain is crucial for evaluating the efficacy of clinical interventions and clinical epidemiology. 


The Roland Murray Disability Survey Questionnaire ( RMDQ ) is currently the main tool for evaluating disability in patients with 


low back pain, but the applicability of its measurement performance in the Chinese population remains unclear. Objective 


To evaluate the applicability of RMDQ in the Chinese population with low back pain and provide evidence for clinical practice 
and research application. Methods CNKI, Wanfang Data Knowledge Service Platform, SinoMed, PubMed, Embase and 


Web of Science were searched from inception to 2023-10-01, 


to establish a literature base for the performance of the low back 


pain scale, and then select research on the measurement performance of RMDQ from it. The measurement performance of the 


RMDQ scale was evaluated according to the COSMIN system evaluation guidelines, and the evidence evaluation level was used 


to grade the evidence. Results A total of six RMDQ documents were included, with insufficient methodological quality for 


RMDQ content validity and adequate measurement performance. The quality of internal consistency methodology was very good 


with uncertainty and measurement performance was adequate; the methodological quality of retesting was uncertain, and the 


measurement performance was sufficient; 
performance was sufficient ; 


was insufficient; 


the methodological quality of measurement error was uncertain, and the measurement 
the methodological quality of criterion validity was uncertain, and the measurement performance 


hypothesis testing methodological quality was very good with uncertain, and the measurement performance 


was sufficient and uncertain; the quality of reactivity methodology was very good, with sufficient and insufficient, while the 


measurement performance was sufficient with insufficient. According to the GRADE evidence quality rating results, there is low 


quality evidence to prove uncertainty in content validity, and moderate quality evidence to prove sufficient retesting reliability 


and internal consistency; there is sufficient evidence of low quality to prove the measurement error and reactivity. There is very 


low quality evidence of insufficient calibration validity when using the Oswestry Dysfunction Index ( ODI ) and the Visual Analog 


Scale ( VAS) as calibrators; hypothesis testing had moderate quality evidence of uncertainty. Conclusion The methodological 


quality of the RMDQ scale is not high, with acceptable measurement performanceand low quality of evidence, and needs to be 


used cautiously in clinical practice or trials of low back pain in China. Although there is sufficient evidence of moderate quality 


to prove the reliability and internal consistency of retesting, the research content and methods are not standardized. In future 


research, attention should be paid to standardization to more accurately assess its applicability in the Chinese population. 
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腰痛 全 球 患 病 率 为 13.1%~20.3%''， ， 我 国 患 病 率 
为 6.11%~28.5% 7 ,腰痛 是 至 残 、 病 休 、 失 业 的 主要 
PR! ， 对 个 人 及 社会 均 是 沉重 的 负担 。 评 估 慢 性 腰 
痛 患 者 的 残疾 程度 对 于 评价 临床 干预 疗效 和 临床 流行 病 
学 至 关 重 要 ! 4 。 罗兰 -英里 残疾 调查 问卷 ( Roland-Morris 
Disability Questionnaire, RMDQ ) 是 由 英国 学 者 Roland 
和 Morris 等 设计 的 一 种 问卷 ， 是 目前 评估 腰痛 患者 残疾 
的 主要 工具 ” ，TSANG 等 “ 首次 评价 RMDQ 在 中 国 
腰痛 人 群 的 测量 学 性 能 ， 随 后 亦 有 研究 ， oe 
学 质量 、 量 表 证 据 强度 、 是 否 适 用 等 问题 尚 不 清楚 。 测 
学 性 能 评价 决定 量 表 的 准确 性 和 可 靠 度 ， 并 影响 结果 
解读 。 国 外 对 RMDQ 的 以 共识 为 基础 的 健康 测量 工具 
的 选择 标准 ( consensus-based standards for the selection 
of health measurement instruments, COSMIN ) 研究 显 


E 
Æ 


示 其 是 高 质量 证 据 证 明 可 理解 但 不 全 面 的 问卷 ， 低 至 非 
常 低 质量 证 据 证 明 其 内 容 效 度 ， 中 等 质量 证 据 证 明 其 结 
构 效 度 。 但 其 在 中 国 腰痛 人 群 的 测量 学 性 能 尚 不 清楚 。 

COSMIN 是 通过 评估 患者 报告 结局 指标 测量 工具 人 研 
究 的 方法 学 质量 及 测量 工具 测量 学 性 能 而 制定 的 ， 目 的 
为 指导 临床 研究 使 用 适当 的 测量 工具 , 提高 研究 质量 '*.。 
COSMIN 系统 评价 指南 ”对 测量 工具 测量 学 性 能 的 系 
统 评价 进行 了 详细 阐述 ， 并 指导 了 研究 步骤 。 

本 研究 按照 COSMIN 系统 评价 指南 对 RMDQ EK 
的 测量 学 性 能 进行 评价 ， 并 采用 GRADE 证 据 评价 等 级 
对 证 据 分 级 , 目的 是 评估 其 在 中 国 腰痛 人 和 群 中 的 适用 性 ， 
为 临床 实践 、 临 床 研究 的 应 用 提供 证 据 。 


1 资料 和 方法 


(GP mpane TTE 


11 测量 工具 

RMDQ 是 从 疾病 影响 量 表 ( Sickness Impact Profile, 
SIP) 中 选择 了 24 个 受 腰 痛 特 异 影 响 的 问题 组 成 ， 旨 在 
评估 腰痛 患者 的 功能 状态 。 每 个 问题 以 “因为 我 的 
腰痛 ”加 以 限制 ， 与 其 他 导致 功能 障碍 的 原因 区 分 ， 方 
便 患 者 回答 。24 个 问题 主要 涉及 腰痛 对 坐 、 卧 、 走 、 
自理 能 力 与 日 常生 活 等 方面 的 影响 ， 每 题 1 分 ，“ 是 ” 
为 1 分 “T AOA, 总 分 0~24 分 ， 得 分 越 高 ， 功 
能 障碍 程度 越 高 “| 。 
1.0 检索 策略 与 数据 库 建立 

针对 腰痛 量 表 的 性 能 研究 建立 文献 库 ， 再 从 中 得 
选 RMDQ 测量 性 能 的 研究 。 从 数据 库 创 建 至 2023-10- 
01， 计 算 机 检索 中 国 知 网 、 万 方 数据 知识 服务 平台 、 
SinoMed, PubMed, Embase 及 Web of Science 等 ， 中 


文 关键 词 包 括 : (1) 腰疼 、 腰 痛 、 腰 背 痛 、 腿 痛 等 ; 
(2) 中 国 ; (3) 效 度 、 信 和 度 、 反 应 度 等 测量 学 性 


能 。 英 文 关键 词 包括 : 
(2) China, Chinese, Hong Kong; 


comparison, data collection method, validation study , 


( 1) back pain, low back pain; 
( 3) inter method 
outcome measure; (4) internal consistency, reliab, 
valid, retest. 
1.3 文献 纳入 与 排除 标准 

纳入 标准 :( 1 ) 中 国 腰痛 人 群 临床 测量 ( 包括 诊断 、 
评估 和 预测 等 ) 研究 ; (2) 包括 RMDQ 量 表 9 种 测量 
性 能 ( 内 容 效 度 、 结 构 效 度 、 假 设 检验 、 内 部 一 致 性 、 
重 测 信 和 度 、 测 量 误差 、 标 准 效 度 、 反 应 度 及 跨 文化 效 度 ) 
至 少 1 种 研究 ; (3) 全 文 可 用 。 排 除 将 RMDQ 用 于 为 
一 种 工具 测量 性 能 研究 ( 如 选择 RMDQ 作为 对 比 量 表 
以 评价 PSEQ 结构 效 度 的 研究 ) 。 
1.4 文献 筛选 与 数据 提取 

2 位 研究 人 员 独 立 排 除 无 关 研 究 ， 再 检索 保留 文献 
全 文 内 容 ， 按 照 纳 入 及 排除 标准 对 全 文 数 据 提取 ， 结 
如 有 不 同 ， 双 方 进行 协商 ， 奉 仍 不 同 则 由 第 三 方 仲裁 。 
每 项 研究 应 提取 样本 量 、 性 别 、 年 龄 、 地 区 、 语 言 、 疾 
病 特 征 、 填 写 RMDQ 的 场景 以 及 测量 性 能 的 研究 结果 
与 统计 学 方法 等 。 
15 评价 流程 

COSMIN 对 量 表 的 系统 评价 分 为 3 个 部 分 、10 个 步 
WE (图 1) : 第 一 部 分 文献 检索 ， 步 又 1~4， 内 容 为 明 
确 评价 目的 、 制 定 纳 排 标准 实施 文献 检索 .获取 与 盘 选 。 
第 二 部 分 评价 测量 性 能 ， 步 又 5~7， 内 容 为 评价 内 容 效 
度 、 内 部 结构 和 其 他 测量 性 能 。 其 中 包含 对 研究 偏 倚 风 
险 、 测 量 性 能 优 劣 的 评价 及 结果 汇总 ， 后 运用 GRADE 
系统 形成 推荐 等 级 。 第 三 部 分 选择 量 表 ， 步 又 8-10, 
内 容 是 描述 可 解释 性 和 可 行 性 、 形 成 量 表 推 荐 意见 。 
15.1. 研究 的 方法 学 质量 评价 : 按照 “COSMIN hifi X 


http:zwww.chinagp.net E-mail:zgqkyx@chinagp.net.cn 3. 


险 清单 ”'" 进行 评价 ,结果 有 “非常 好 ”“ 足 够 ” “不 
确定 ”或 “不 足 ”。 每 项 研究 质量 的 总 分 按 框 中 条 目的 
最 低 分 给 出 。 如 果 多 种 测量 性 能 在 一 项 研究 中 ， 则 每 种 
测量 性 能 均 需 进行 评价 。 


1. 明确 系统 评价 目的 


—. Ee 【涉及 工具 

文献 上 >| 2 确定 纳 人 排除 标准 | | @D 单 项 研究 偏 佑 风险 评价 

检索 | ”|3- 文 南 检 索 策略 | | 。 偏 倚 风 险 清单 
EBS MBE sp PE ET A A 
5. 评价 内 容 效 度 Kot 

Y |5 评价 内 部 结构 ( 构 | | 信任 风险 降级 指引 


= 7h RF 内 nb 性 @ 内 容 效 度 评价 
|。 良好 内 容 效 度 评价 标准 ; 
评价 7. 评价 其 他 性 能 ( b 单 项 研究 内 容 效 度 相 关 性 、 
| 度 、 测 量 误差 、 校 标 全 面 性 、 可 理解 性 评价 指引 


Tlf 


效 度 、 反 应 度 等 ) c 单 项 研究 内 容 效 度 评 定 总 
指引 
@@ 其 他 性 能 评价 


= 8. 评 价 可 解释 性 、 可 


"eu fif I CHEE 5 Ua 
选择 [7 o 形成 推荐 意见 加 证据 质 量 评 从 
um 10. 报告 结 -CRADE 评价 标准 


1 COSMIN 研究 
Figure 1 COSMIN Study 


1.5.2 测量 性 能 的 评价 顺序 : 首先 评价 量 表 开 发 质量 及 
内 容 效 度 。 内 容 效 度 在 测量 性 能 中 至 关 重 要 CIUS, ， 先 排 
除 内 容 效 度 不 足 的 研究 。 后 评价 内 部 结构 ， 如 内 部 一 致 
性 、 结 构 效 度 等 。 最 后 考虑 其 他 测量 性 能 ， 如 重 测 信和 度 、 
反应 度 等 。 

1.5.3 测量 性 能 的 评价 : 内 容 效 度 评价 按照 “内 容 效 度 
10 条 评价 标准 ”'"1 ,评价 结果 为 充分 (+) 、 不 足 (-) 
或 不 确定 (? ) 。 根 据 “ 单 个 研究 内 容 效 度 评级 指南 及 
评定 指南 ”进行 评价 ， 结 果 为 充分 (+) 、 不 足 (-) 、 
不 一 致 ( + ) 或 不 确定 (? ) 。 其 他 测量 性 能 根据 “更 
新 测量 性 能 优 劣 评价 标准 ”' O 将 测量 性 能 评价 为 充 
T+), DEC) 或 不 确定 (? ) 。 

1.5.4 证 据 综合 与 证 据 质量 分 级 : 评判 每 个 测量 特性 可 
用 研究 结果 的 一 致 性 。 结 果 一 致 时 ， 可 对 结果 进行 定量 
汇总 或 定性 总 结 ， 并 与 测量 特性 的 良好 标准 进行 比较 ， 
来 确定 量 表 的 测量 特性 总 体 上 是 充分 (+) 、 不 足 (-) 、 
不 一 致 ( + ) 还 是 不 确定 (? ) ; 如 果 结 果 不 一 致 ， 可 
用 亚 组 分 析 或 根据 大 多 数 一 致 的 结果 得 出 结论 ， 并 按照 
不 一 致 性 降低 证 据 质量 。 

COSMIN 应 用 “改进 GRADE 证 据 质 量 评级 "标准 [1， 
标准 包含 : 偏 倚 风 险 汪 不 一 致 性 、 不 精确 性 及 间接 性 。 
研究 质量 可 根据 以 上 标准 进行 降级 。 

2 结果 
2.1 纳入 研究 一 般 情 况 
共 检 索 到 4731 篇 文献 , 1 394 篇 文献 因 重复 被 删除 ， 


3 179 篇 文献 因 阅 读 题目 摘要 后 不 相关 被 删除 ， 最 后 
158 篇 文献 被 纳入 数据 库 。 全 文 浏览 后 ，11 篇 RMDQ 
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量 表 测 量 性 能 研究 被 纳入 ， 其 中 2 篇 无 法 获得 全 文 与 3 
篇 重复 的 研究 (2 篇 毕业 论文 与 2 篇 中 文 文献 为 同一 研 
究 ，1 篇 英文 文献 与 1 篇 中 文 文献 为 相同 研究 ) 被 排除 
在 外 ,最终 纳 入 文献 6 篇 “*“ S 。 文 献 检 索 流程 图 见 
2， 纳 入 文献 基本 情况 见 表 1。 


初 得 文献 (n=4731 ) : 中 国 知 网 (n=1 176 ) ， 万 方 数据 知 
识 服 务 平台 (n=801 ) , Sinomed( n2459 ) , PubMed( n=522 ) , 
Embase (n=1 058) , Web of Science ( n2715 ) 


Y 
AIR EC SCRA AT CHR (n=3 337 ) 


Y 
阅读 标题 和 摘要 初 得 后 获得 文献 《nz=158 ) 
Y 


阅读 全 文 ， 根 据 纳 入 、 排 除 标准 筛选 后 获得 文献 (n=11 ) 
排除 文献 (n=5 ) : 
| | 无 法 获得 全 文 (n=2 ) 
重复 文献 (n=3 ) 


Y 
最 终 纳入 文献 (n=6 ) 
图 2 文献 检索 流程 图 


Figure2 Literature retrieval flow chart 


表 1 纳入 文献 基本 情况 


Table 1 Basic information of the included literature 


第 一 作者 qus) RMDQ 版 本 qi) mop) Cie) fs 
YAO * 2020 中 文 版 353 50.3 55.881 LDH 
FAN US 2013 ”简体 中 文 版 ”116 5217 40.51 LBP 
yr 2012 ”简体 中 文 版 — 187 4130 4973 LBP 
una’ — 2005 中 文 版 57 43.6 4035 LBP 
何 高 5 2005 中 文 版 48 385 3750 LBP 
TSANG'* — 2004 ”香港 中 文 版 112 41.6 5710 LBP 


it: LDH= 腰椎 间 盘 突出 证 ，LBP= 腰痛 ;“ 包 括 坐 骨 神 经 痛 。 


2.22 ”纳入 研究 的 方法 学 质量 评价 

22.4 内 容 效 度 : 何 高 ' 研究 中 仅 提 及 采用 专家 审定 
方法 对 内 容 效 度 进行 评价 ， 缺 少 必要 的 方法 学 描述 。 

TSANG “1 对 各 条 目 认 可 比例 、 区 分 度 和 修正 项 的 合计 
相关 系数 来 评价 内 容 效 度 。 根 据 COSMIN 标准 ， 需 有 相 
关 领 域 专家 评价 及 数据 的 处 理 和 方法 ， 两 项 研究 各 有 人 欠 
缺 ， 故 评 为 不 足 。 

222 ”内 部 一 致 性 : YAO 26!) , gg Hue a US! S YI 
x CU 研究 仅 分 析 了 总 量 表 的 克隆 巴赫 系数 ， 缺 少 单独 
条 目的 分 析 ， 故 均 评 为 不 确定 。 何 高 ' 与 FAN Ag US 
分 析 了 总 量 表 及 单独 条 目的 克隆 巴赫 系数 , 评 为 非常 好 。 
TSANG 64 KR20 系数 大 小 作为 对 内 部 一 致 性 的 评 佑 ， 

KR20 系数 被 看 作 是 克隆 巴赫 系数 的 特殊 形式 ， 因 此 评 
为 非常 好 。 

223 重 测 信和 度 : YAO 25 U 、 何 高 5 、TSANG :9 、 

高 明了 等 8] 均 未 说 明 2 次 填写 量 表 的 环境 ， 无 法 判断 


排版 稿 Chinese General Practice CP 
两 次 填写 条 件 的 相似 性 ，FAN 等 "缺少 对 纳入 患者 干 
预 的 描述 ， 无 法 判断 两 次 填写 时 间 间 隔 的 合适 性 及 期 间 
内 等 测 结构 是 否 稳定 ; 了 开 等 '" | 患者 2 次 填写 时 间 间 隔 
为 24 h， 考 虑 间隔 时 间 不 合适 ， 且 未 说 明 2 次 填写 的 环 
境 ， 以 上 研究 均 评 为 不 确定 。 
2.2.4 测量 误差 : YAO 4$ '' 研究 未 描述 两 次 量 表 填写 
的 条 件 ， 无 法 评价 ， 故 评 为 不 确定 。 
22.5 TRA: 何 高 ”1 研究 以 Oswestry 功能 障碍 指 
BY Oswestry disability index, ODI ) 和 视觉 模拟 量 表 ( Visual 
Analogue Scale, VAS ) 为 校 标 ， 采 用 Spearman 相关 系 
数 对 294 例 患 者 进行 评估 ,但 目前 没有 统一 的 腰痛 金 标 
准 量 表 ， 因 此 研究 质量 评 为 不 确定 。 
22.6 假设 检验 : YAO SE 分别 以 日 本 骨科 协会 腰 
痛 评 分 量 表 ( Japanese Orthopaedic Association, JOA ) 
5 个 问题 、 数 字 疼 痛 评 定量 表 (Numerical Pain Rating 
Scale, NPRS) , ODI, 36 项 健康 调查 简 表 (Short Form 
36 Health Survey，SF-36 ) 为 对 比 工 具 评 价 聚 合 效 度 ， 
但 未 提供 对 比 工具 测量 性 能 相关 证 据 被 评 为 不 确定 。 何 
高 号 提出 两 种 理论 假设 , 使 用 配对 性 + 检验 来 测量 样本 ， 
假设 与 理论 一 致 ， 评 为 非常 好 。 
2.2.7 反应 度 : YAO 4$ !! , TSANG / 均 采 用 曲线 下 
面积 (area under the curve, AUC ) 评 估 反 应 度 , YAO axla] 
通过 亚 组 间 数 据 统计 分 析 评 价 ， 描 述 了 亚 组 重要 特征 、 
统计 方法 合适 且 研 究 设计 无 重要 缺 隐 ， 评 为 非常 好 。 
TSANG “未 具体 描述 使 用 的 标准 ， 评 为 足够 。 何 高 :31 
用 标准 化 反应 均 数 ( standardized response mean, SRM) 
评估 反应 度 ， 未 充分 描述 统计 方法 ， 评 为 足够 。 

研究 缺少 对 RMDQ 监 文 化 和 结构 效 度 的 评价 ( 表 
2) 6 
23 ” 量 表 测量 学 性 能 及 其 评价 
2.3.1 ”内 容 效 度 : 何 高 ”研究 包含 了 与 腰痛 密切 的 内 容 ， 
专家 评审 为 内 容 效 度 良好 。TSANG' 研究 除 个 别 条 目 ， 
RMDQ 项 目的 认可 比例 均 在 0.20~0.80; 条 上 日 区 分 度 指 
数 为 0.30~0.73; 条 目的 二 序 相关 点 为 0.31~0.68; 故 内 
容 效 度 良好 。 二 者 研究 均 可 看 作 专 业 人 员 对 其 内 容 效 度 
进行 评价 ， 但 评价 方法 不 符合 COSMIN 标准 ， 评 为 不 确 
定 。 
22 ”内 部 一 致 性 : 5 项 研究 “”“ “克朗 巴赫 系数 均 
>0.7， 分 别 为 0.807、0.84、 (城市 0.874、 农 村 0.883 ) 、 
0.885, 0.826; TSANG ^ KR20 系数 为 0.86， 说 明 内 部 
一 致 性 省 良 好 ， 评 为 充分 。 
23.3 重 测 信 度 : 6 项 研究 “组 内 相关 系数 
( intraclass correlation coefficient, ICC ) 结果 分 别 为 0.855、 
0.947、( 城市 组 0.952、 农 村 组 0.949 ) 、0.95、0.945、 
0.91， 均 >0.7， 评 为 充分 。 
2.34 测量 误差 : YAO 等 1 计算 标准 测量 误差 ( standard 


«mm 


(GP magis Ee TTE 


error of mean, SEM X1 3 0.28 .最 小 可 检测 差异 ( smallest 
detectable change, SDC ) 结果 为 0.77、 最 小 临床 重要 变 
化 ( minimum important change, MIC ) 结果 为 1.74， 根 
据 SDC 小 于 MIC， 评 为 充分 。 
2.3.5 BERGE: fupe LA ODI All VAS 为 校 标 ， 
Spearman 相关 系数 为 0.3~0.5，<0.7， 故 评 为 不 充分 。 
2.3.6 ”假设 检验 : YAO 等 六 研究 中 ，RMDQ 与 JOA 问 
题 1-5, NPRS, ODI, SF-36 的 相关 系数 为 -0.76~0.74， 
研究 中 未 提出 具体 假设 或 相关 标准 描述 , 故 评 为 不 确定 。 
何 高 “研究 基于 两 种 理论 假设 : 1 周 内 打算 或 已 看 过 
医生 的 腰痛 患者 其 功能 障碍 情况 应 该 比 没有 看 过 或 打算 
来 看 医生 的 患者 的 功能 障碍 情况 更 重 ; 1 周 内 需要 吃 药 
的 腰痛 患者 其 功能 障碍 情况 应 该 比 没 有 吃 过 药 的 患者 的 
功能 障碍 情况 更 重 。 研 究 配对 /检验 结果 显示 1 周 内 接 
受 看 医 或 吃 药 的 患者 的 功能 障碍 情况 更 重 。 假 设 与 理论 
一 致 ， 评 为 充分 。 
23: 反应 度 : YAO 55 AUC 结果 为 0.868, 评 为 充分 。 
何 高 “” 用 SRM 评估 反应 度 ，SRM 值 为 0.7~0.9， 反 应 
度 较 好 ， 评 为 充分 。TSANG' AUC 结果 较为 多 变 ， 不 
表 2 纳入 研究 方法 学 质量 评价 与 测量 性 能 评价 结果 


Table 2 Results of methodological quality evaluation and measurement 


performance evaluation of the included studies 


测量 性 能 。 第 一 作者 方法 学 质量 评价 = DEUS 
内 容 效 度 MA 不 足 + 
TSANG“! 不 足 + 
内 部 一 致 性 YAO! 不 确定 + 
FAN '*! 非常 好 2j 
yr 不 确定 + 
sg Hus 7 不 确定 * 
fgg 非常 好 + 
TSANG ‘©! 非常 好 * 
重 测 信和 度 yao!) 不 确定 十 
FAN (6! 不 确定 * 
y 不 确定 id 
s Hus 7 不 确定 十 
何 高 “| 不 确定 + 
TSANG ‘©! 不 确定 * 
测量 误差 — YAO U 不 确定 + 
校 标 效 度 。” 何 高 5 不 确定 = 
可 高 551 非常 好 * 
反应 度 。 YAO’ 非常 好 + 
可 高 51 足够 + 
TSANG ©! 不 足 


TE: + 表示 测量 性 能 充分 ; - 表示 测量 性 能 不 足 ; ? 表示 测量 性 
能 不 确定 ; JOA= 日 本 骨科 协会 腰痛 评分 量 表 ，NPRS= 数字 疼痛 评定 
EK, ODI-Oswestry 功能 障碍 指数 ，SF-36=36 项 健康 调查 简 表 。 
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同 标准 下 结果 为 0.67~0.84， 评 为 不 充分 。 

无 研究 评价 RMQD 量 表 的 跨 文化 、 结 构 效 度 ( 表 2 )。 
2.4 证 据 综合 与 证 据 质量 分 级 

研究 采用 GRADE 证 据 评价 等 级 对 证 据 进行 分 级 。 
YAO 等 人、 高 明 瞪 等 中 、 何 高 :5 中文 版 与 FAN 2808 
YI 4g LU f prp Sc TSANG 51 香港 中 文 版 的 量 表 内 
容 差 异 不 大 ， 故 综合 了 这 6 篇 研究 证 据 。 

GRADE 证 据 综合 与 证 据 质量 评级 结果 显示 : 
RMDQ 内 容 效 度 不 确定 , 因 偏 傈 风险 严重 降级 为 低 质 量 ; 
结构 效 度 无 相关 研究 ; 内 部 一 致 性 充分 ,证 据 等 级 因 偏 
倚 风 险 严 重 降级 为 中 等 质量 ; 重 测 信和 度 充分 ， 证 据 等 级 
因 偏 倚 风 险 严重 降级 为 中 等 质量 ; 测量 误差 充分 ,证 据 
等 级 因 偏 倚 风 险 非常 严重 降级 为 低 质量 ; 以 VAS 为 校 
标的 研究 ， 其 结果 校 标 效 度 不 充分 ， 证 据 等 级 因 偏 倚 风 
险 非常 严重 及 结果 不 精确 严重 降级 为 非常 低 质 量 ; 假设 
检验 不 确定 ,证 据 等 级 因 偏 傈 风险 严重 降级 为 中 等 质量 ; 
反应 度 充分 ， 证 据 等 级 因 偏 倚 风 险 非 常 严重 降级 为 低 质 
量 。 所 有 研究 证 据 在 不 一 致 性 、 不 准确 性 及 间接 性 三 个 
方面 良好 ， 均 不 存在 降级 情况 ( 表 3) 。 


X3 GRADE 证 据 综合 与 证 据 质量 评级 结果 
Table3 GRADE evidence summary and evidence quality rating results 


文献 数量 


测量 局 性 OM wee EU o 证据。 证据 质量 降 人 原因 
MEME 2 低 质 量 不 确定 。 ++-- RE 
TE NIME E UU 
EMAR 679 "5 SEE RO m MARME 
Mae 1" ——— dU 。 充分 e WAFER 
Bl 17 非常 人 质量 ”不 充分 s NEE 
oc) 17" GER 。 不 确定 。 n- MARRE 
DAMEN esha 
3 讨论 


本 研究 采用 COSMIN 标准 对 RMDQ 在 中 国人 群 中 
方法 学 质量 与 测量 性 能 进行 评价 。 综 合 评价 结果 来 看 ， 
内 容 效 度 和 反应 度 呈 低 质量 ， 且 缺少 结构 效 度 证 据 ， 尽 
管 信 度 的 测量 学 性 能 较为 充分 ， 但 目前 研究 存在 严重 偏 
倚 风 险 ，RMDOQ 临床 应 用 的 结果 和 人 解读 需要 谨慎 。 

内 容 效 度 是 最 重要 的 测量 学 性 能 。 条 目 是 量 表 、 反 
映 预 期 概念 的 基本 单元 ， 其 内 容 和 质量 直接 影响 量 表 的 
内 容 效 度 。 因 此 ，COSMIN 首先 评价 量 表 的 内 容 效 度 ， 
包括 相关 人 群 (专家 与 受 试 者 ) 的 定性 或 定量 研究 、 对 
量 表 相 关 性 、 全 面 性 及 可 理解 性 全 方位 评价 。 本 研究 中 
两 篇 文献 一 是 缺少 数据 的 处 理 和 方法 ， 一 是 未 说 明 进 行 
评价 的 是 否 为 专家 ， 故 两 项 研究 的 质量 评价 为 不 足 。 

效 标 效 度 是 对 结构 效 度 和 内 容 效 度 的 补充 ， 当 “ 金 
标准 ”有 异议 时 , 校 标 效 度 和 聚合 效 度 将 变 得 难以 区 分 。 
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本 研究 中 效 标 效 度 的 证 据 质量 非常 低 , 测量 性 能 不 充分 ， 
主要 表现 为 与 ODI 和 VAS 校 标 的 相关 性 低 ， 降 低 了 证 
据 质量 。 目 前 并 没有 统一 的 腰痛 金 标 准 量 表 ，ODI 是 功 
能 障碍 量 表 ， 病 情 程度 相对 比 RMDQ 要 轻 ， 若 作为 效 
标 或 金 标 准 是 不 完全 合适 的 ; VAS 仅 评 价 了 疼痛 ， 而 
RMDQ 不 仅 针对 疼痛 ， 若 作为 效 标 亦 是 不 合适 的 。 

假设 检验 是 先 对 总 体 特 征 作 出 某 种 假设 ， 通 过 抽样 
研究 的 统计 推理 ， 对 此 假设 应 该 被 拒绝 还 是 接受 作出 推 
断 ， 来 验证 总 体 的 特征 。 在 人 研究 中 应 明确 给 出 假设 ， 选 
取 与 其 测量 内 涵 相 同 /相似 或 不 相同 的 量 表 ， 说 明 两 者 
的 关系 是 正 / 负 相关 性 及 相关 程度 等 ， 而 且 选 择 的 量 表 
应 该 本 身 具 有 较为 充分 的 测量 学 性 能 , 并 提供 相关 证 据 。 
YAO 4& *! 仅 提 出 RMDQ 5j JOA, NPRS, ODI, SF-36 
具有 相关 性 的 假设 ， 但 缺少 具体 假设 或 相关 标准 描述 ， 
评价 为 中 等 质量 的 不 确定 。 何 高 :研究 给 出 了 明确 假设 ， 
通过 检验 证 实 假设 与 理论 一 致 ， 评 为 充分 。 此 项 测量 性 
能 存在 非常 好 与 不 确定 两 种 情况 ， 存 在 偏 傈 ， 被 评价 为 
中 等 质量 。 

信和 度 是 反映 测验 结果 受到 随机 误差 影响 程度 的 指 
标 ， 其 与 效 度 的 关系 是 必要 但 不 充分 。RMDNQ 信 度 证 据 
均 为 中 等 质量 ， 其 中 内 部 一 致 性 为 中 等 质量 ， 测 量 性 能 
充分 ， 方 法 学 部 分 因 其 未 计算 每 一 条 目的 内 部 一 致 性 系 
数 从 而 存在 偏 傈 ， 降 低 了 证 据 质量 ; 重 测 信 度 亦 为 中 等 
质量 ， 测 量 性 能 充分 ， 但 无 法 判断 两 次 填写 条 件 的 相似 
性 、 两 次 填写 时 间 间 隔 的 合适 性 及 在 这 期 间 内 待 测 结构 
是 否 稳定 ， 使 得 证 据 质量 降低 。 在 以 后 的 研究 中 应 注意 
重 测 间隔 时 间 、 地 点 及 其 他 条 件 是 否 合适 ， 以 提高 重 测 
信 度 的 质量 。 

反应 度 指 量 表 反 映 微小 特性 变化 的 能 力 ， 是 对 效 度 
进一步 的 评价 。 反 应 度 根据 变化 程度 和 是 否 有 临床 意义 
分 为 SDC fI MIC, 前 者 只 要 求 量 表 最 小 评分 发 生变 化 ， 
无 论 临床 是 否 有 意义 ; 后 者 强调 量 表 最 小 评分 变化 要 有 
临床 意义 ， 量 表 的 可 解释 性 属于 后 者 。RMDQ 反应 度 被 
判定 为 低 质量 ， 测 量 性 能 有 充分 与 不 充分 两 种 不 一 致 的 
结果 ， 方 法 学 存在 差异 ， 使 结果 发 生 偏 倚 降 低 了 证 据 质 
量 。 同 时 也 提示 RMDQ 量 表 在 反映 患者 治疗 效果 上 存 
在 着 不 足 。 

整体 来 看 ，RMDQ 量 表 的 信和 度 比 效 度 具 有 高 证 据 质 
量 。 信 和 度 是 反应 测量 结果 的 一 致 性 和 稳定 性 程度 ， 效 度 
是 反映 实际 能 测 出 的 有 效 程 度 。 信 和 度 是 效 度 的 必要 但 不 
充分 条 件 ， 无 信 度 必然 无 效 度 ， 但 有 信和 度 未 必 有 效 度 ; 
效 度 是 信 度 的 充分 但 不 必要 条 件 , 有 效 度 必然 会 有 信和 度 ， 
但 无 效 度 却 未 必 无 信和 度 。RMDOQ 效 度 证 据 质量 低 或 缺 
Ak. 说明 其 在 中 国 腰 痛 人 群 中 的 适用 性 有 待 提高 。 尽 管 
RMDQ 为 国际 公认 通用 量 表 , 但 并 不 能 说 明 其 可 以 很 好 
应 用 于 中 国 临床 。 人 研究 也 指出 RMD 量 表 是 一 个 可 理 
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解 但 不 全 面 的 量 表 , 其 内 容 效 度 证 据 呈 低 至 极 低 质量 
本 研究 结果 与 之 相同 。 

研究 结果 显示 方法 学 质量 普遍 较 低 ， 统 计 方 法 与 研 
究 设计 选择 不 当 、 分 析 不 足 、 样 本 量 不 够 等 会 降低 质量 。 
纳入 6 篇 文献 共 涉 及 3 个 RMDQ 版 本 ， 且 为 RMDQ 英 
文 翻译 版 ， 但 缺少 RMDQ 跨 文化 效 度 研 究 ， 那 么 对 于 
不 同 版 本 便 有 不 同 的 翻译 方式 ， 可 能 会 使 RMDQ 量 表 
在 某 些 问题 上 产生 理解 偏差 从 而 导致 结果 发 生 偏 倚 。 同 
时 也 提示 当前 没有 统一 的 中 文 版 RMDQ 量 表 。 跨 文化 
效 度 研究 需 在 文化 调适 的 基础 上 再 进行 结构 效 度 的 评 
价 ， 评价 时 应 选用 两 组 样本 ， 除 了 语言 的 差异 外 ， 应 控 
制 其 余人 群 特征 ( 如 年 龄 、 性 别 、 疾 病 特 点 等 ) 的 一 致 。 

本 研究 也 存在 着 很 多 不 足 之 处 ， 纳 入 文献 使 用 的 量 
表 没 有 全 部 获取 ， 纳 入 评价 的 文献 数量 较 少 ， 也 没有 比 
较 和 分 析 各 版 本 间 的 差异 ， 从 而 具有 局 限 性 。COSMIN 
系统 评价 指南 于 2005 年 发 布 ， 但 研究 纳入 文献 有 3 篇 
ERT 2010 年 或 更 早 ， 其 研究 方法 学 质量 按照 较 新 标 
准 进行 评价 存在 争议 ， 因 此 研究 评价 的 结果 可 能 存在 偏 
倚 。 在 此 后 的 研究 中 应 当 获 取 所 有 纳入 文献 的 量 表 ， 对 
其 进行 比较 ; 此 外 应 尽量 纳入 发 布 于 2010 年 之 后 的 文 
献 ， 以 减少 争议 。 量 表 性 能 测量 的 研究 设计 、 研 究 方法 
等 应 更 标准 、 详 细 。 还 应 结合 中 国 实际 情况 , 改进 量 表 ， 
得 到 适用 于 中 国 本 土 腰痛 患者 评估 残疾 的 量 表 。 测 量 学 
性 能 是 一 个 不 断 累 积 的 过 程 ,而 且 随 着 文化 .语言 ,年代 、 
测量 方式 、 人 群 认识 概念 、 目 标 人 群 特点 或 者 疾病 谱 等 
的 变化 而 不 断 增 加 新 的 证 据 ”1 ; FDA 也 指出 量 表 的 研 
制 和 修改 是 一 个 不 断 增 加 证 据 、 非 线性 轮 状 的 过 程 :*]。 


4 结论 


RMDQ 量 表 方 法 学 质量 不 高 ， 测 量 性 能 尚 可 ,证据 
质量 偏 低 ， 在 中 国 腰痛 临床 实践 或 试验 中 需 谨慎 使 用 ， 
重 测 信和 度 与 内 部 一 致 性 虽 有 中 等 质量 证 据 证 明 充 分 ， 但 
研究 内 容 和 方法 不 规范 。 将 来 研究 应 注意 规范 ， 能 更 准 
确 判 断 在 中 国人 群 中 的 适用 性 。 
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